带宽运营，皆为错峰

Original 曹亚孟云算计 2021-11-14

引言

有个传说，古罗马两匹马屁股的间距，决定了马车轴距、铁路宽度、隧道宽度，最终决定了陆基运载火箭的喷口直径。

对于带宽产品的资源运营，也有个类似的根源，那就是带宽以峰值为计费基准。

无论读者的角色是云厂商/IDC/CDN还是大型用户，无论产品是BGP、单线、CDN还是边缘计算，只要我们在带宽类产品上消费额过了千万，我们就需要关注带宽运营和产品设计的根源是错峰。

1. 带宽三惊

惊吓惊喜和惊讶

对于大带宽云产品，我先总结出三个略带惊讶的真相。
1. 惊吓：运营商千万别降价
每个云厂商都梦想着自己拿到便宜带宽——这里的主语是“自己”而不是“便宜”。如果运营商将带宽价格普调性降低，那会是一场横扫整个云行业的灾难。其他大营收的云产品也别笑，硬件和电费降价，你们也一样尴尬。2. 惊喜：带宽生意要大小搭配
大部分toB产品都可以只做大客户，但带宽类产品最好是大小搭配。大客户让云厂商有做带宽生意的体量、也能腾挪出海量流动资金，但小客户错开了日峰。3. 惊讶：成本真的估不精细

多线BGP的成本都是估算的，调优的效果更是一片动态迷雾。广域网互联是一个无中心的协商系统，线路成本更是超出技术范畴之外，月峰值也在给冗余的伤口撒盐。toB产品都可以只做大客户，但带宽类产品最好是大小搭配。

2. 计费繁琐 难题和操作空间

带宽不是资源，带宽本质上是运营商做的一层规则限制。

运营商的根本计费规则就是“按月峰值计费”，即按照每月最大使用的那个水位线计费，在此基础上涌现出多种变体：

无保底峰值计费，最简单的用多少量给多少钱，可以演化成无保底流量计费。
有保底峰值计费，要收个最低月租费，比如保底1G带宽就是实际用300M也是收1G的钱。
95峰值计费，5%的最高用量被掐尖抹掉，避免偶发高峰造成大账单。
保底后突发流量价格变高，这是供应商鼓励你多交计划内月租，少搞突然袭击。
保底后突发流量价格变低，这是供应商鼓励你资源用的越多越好，最好每根线都用到满载。
固定带宽计费，客户掏的钱都是保底值，但过保底0.01%就会被限流。因为打点统计的粒度太粗，肯定会漏过真实带宽最高峰，而限流丢包时所有数据包等比例随机丢弃，所以大家只敢用到固定带宽的50%-85%。
共享带宽计费，大家肯定以为这种方式早被淘汰了，但是过去租U位共享100M和现在买云主机共享5M带宽有区别吗？

肯定有读者嫌弃上文太复杂了，想要求必须是“无保底流量计费”——这就是“我可以接受涨价”或者“没流量就不卖给你”的意思。

除了计费规则之外，带宽成本还有到特定区域比例限速、跨国跨区域合并保底、楼内线成本、跨运营商冗余方案等等一大堆问题和解决方法。这些复杂的规则，让掌握带宽计费规则成为高智商专业性工作，留给了云厂商、大型互联网厂商的采购、产品、运营、运维极大的难题，也留下了极大的操作空间。

3. 现在的带宽 浪费为主也有复用

在成本不准、需求不准、甚至效果也不准的前提下，带宽错峰仍然是有实操的思路和原则。日峰（含周峰）是我们以低成本保持安全冗余的前提条件，避免出现新的月峰是省钱的目标，而上传错峰是带宽厂商梦想的新金矿。 1. 日峰值错峰求安全日峰错峰的目的是保证不超过带宽上限，保证始终有富裕带宽平稳运行。网络服务是超过限速流量，就会出现大范围丢包的严重事故，加上测量不准流控不精，我们只敢用到带宽上限的70%以下。有些运营商是1:3以上的保底突发比例，大家用起来就比较放心，但有些运营商突发比例给的很小，甚至只给固定带宽，这时错峰就是刀尖上跳舞的刚需了。还好不同用户的业务高峰并不相同，有白天的有晚上的甚至有后半夜的，不同用户错开业务高峰，让业务量始终没漫到带宽上限；用户错峰行为主要体现在日峰，个别会体现在周峰。肯定有朋友说，我只在白天和后半夜用带宽，因此能不能打折？这句话理论上是对的，但是有两个现实问题，一是错不开峰值怎么停掉廉价带宽，二是上游运营商是按照月峰计费的。

2. 月峰值的冒尖和浪费
运营商的费用结算是按照月峰进行的，如果某天某线的月峰突发很高，这个月其他时间的日常错峰就没有节省成本的意义了。

对于用量突增导致的月峰，因为有用户买单所以皆大欢喜；
对于短期DDOS攻击导致的月峰，运气好能找供应商撒娇抹一下账单；
如果A线路故障导致B线路突发峰值，A线路的赔偿款可填不平B线路的突发账单。

月峰在发生前很难压住别冒尖，但在冒尖之后又缺乏好办法规避浪费。我们很难做到因为某线路出现了月峰冒尖，接下来就刻意多用此线路。如果强行往月峰发生线缆上导流量，会面临着三个问题：

首先，要确认这个计费月还有几天空闲；
然后，我们要小心该线路日峰爆仓出故障；
最根本的问题是：其他被抽掉流量的线缆也是保底加月峰付费。

月峰冒尖和浪费的根本原因是：

需求侧不可控只能被动响应；
可调度的对象只有几个运营商的网口；
技术调度方法又非常笨拙缓慢。

3. 上行带宽的商业化运营商售出的IDC带宽是上下行对称，上下行中按用量最高的取值。但实操的过程中，IDC上行带宽基本就是赠送的，用量最大的肯定是下行带宽。CDN带宽上下行不对称，但上行带宽也一直够用。这几年直播火爆，因为直播业务只能回源无法缓存，CDN上行带宽终于用起来了；随着家用IOT场景的日渐普及，曾经闲置的IDC上行带宽逐渐紧俏起来。各个云平台公开的云主机裸金属，都很精明的写出是买下行带宽赠送上行带宽。随着5G类应用的日渐深入，这个赠送的带宽早晚也要变成收费，届时上下行错峰复用会成为带宽产品的新利润增长点。

4. 数据和产品带宽运营的展望

带宽运营的现状是纠结和浪费，但随着技术进步和行业变化，我们能看到带宽运营在逐渐变得确定和清晰。

1. 精确预估大客户成本

互联网巨头们的客户量固定、业务模式也固定，他们的用户分布、节假日变动都已经是明确的曲线，开拓新国家也有了相对固定的模式。这一些工作让带宽类产品可以相对精确的预估大客户成本，让闲置资源更少、复用资源更多。

我知道多个视频大厂都在研发整理峰值的技术，将留给供应商“AAA”的峰值削成“凹凸凹”的峰值，在我来看这是在缘木求鱼。供应商的利润就来自于错峰复用，一个巨头去整理峰值是蹭其他巨头的便宜，多个大厂都选择“凹凸凹”的峰值，只会导致供应商涨价。

2.线路分组混用互备运营商之间的互联互通能力在向集中化、简单化去演进；国内有信号，欧美已经成为事实，多个IPtransit之间的互备互通机制已经很成熟。我们可以将线路按照运营商进行互备分组，也可以将线路按照延迟等质量系数分类，这些分类至少能解决保底和灾备问题，也有望减少月峰值突发。

3. 精细化监控和敏捷决策
传统带宽监控的粒度太粗，也只用于触发报警和手工决策。带宽监控的正道是准实时监控，有了准实时数据就能有更精细的流控机制，再加上AI技术做敏捷判断和大数据技术做汇总统计，人类调配带宽终会变成自动调配带宽。

4. 从需求侧做新产品我说的新产品包括网络产品的自我优化，也包括应用产品的见缝插针。
同样是为解决日峰值中提到“如何停掉廉价带宽”的问题，可以将流控和QoS做到了IP层，也可以用源IP和端口去标识出“它就是可暂停的廉价带宽”，还要求上层应用天然是高容错可暂停。同样是为了解决链路稳定性问题，可以是专线+冗余+BGP等IP层技术，也可以设计一套传输协议，还可以客户端默认双路推流，还可以在编解码技术上搞容错。
要做出上述新产品，必须说明旧产品线的现状数据，新技术有哪些突破，资源池有哪些临界值。

>> 5. 结束语

带宽运营并不是一个轻松的话题，毫厘间的差错就是真金白银的损失，每一个需求方都在同时索要低价格和高价值。

但正如上一篇文章《云平台的成本优化》中的结束语：

这是难做又有用途的事情，是值得我们努力的方向。

: ， . Video Mini Program Like ，轻点两下取消赞 Wow ，轻点两下取消在看

看到辛瓦尔死前3天没吃任何东西，立即想到了杨靖宇

西班牙街头一幕！国王遭民众围攻

又一个特朗普时代！对美国、中国和世界的影响

今天，石狮这所小学向全市展示！

灯塔国的灯

带宽运营，皆为错峰

您可能也对以下帖子感兴趣

看到辛瓦尔死前3天没吃任何东西，立即想到了杨靖宇

西班牙街头一幕！国王遭民众围攻

又一个特朗普时代！对美国、中国和世界的影响

今天，石狮这所小学向全市展示！

灯塔国的灯

生成图片，分享到微信朋友圈

带宽运营，皆为错峰

您可能也对以下帖子感兴趣